Power等人报道的\ emph {grokking现象} {power2021grokking}是指一个长期过度拟合之后,似乎突然过渡到完美的概括。在本文中,我们试图通过一系列经验研究来揭示Grokking的基础。具体而言,我们在极端的训练阶段(称为\ emph {slingshot机构)发现了一个优化的异常缺陷自适应优化器。可以通过稳定和不稳定的训练方案之间的循环过渡来测量弹弓机制的突出伪像,并且可以通过最后一层重量的规范的循环行为轻松监测。我们从经验上观察到,在\ cite {power2021grokking}中报道的无明确正规化,几乎完全发生在\ emph {slingshots}的开始时,并且没有它。虽然在更一般的环境中常见且容易复制,但弹弓机制并不遵循我们所知道的任何已知优化理论,并且可以轻松地忽略而无需深入研究。我们的工作表明,在培训的后期阶段,适应性梯度优化器的令人惊讶且有用的归纳偏见,要求对其起源进行修订。
translated by 谷歌翻译
通过使用图像文本匹配模型的使用,零光学习在计算机视觉中的应用已彻底改变。最值得注意的示例,剪辑,已广泛用于带有文本提示的零摄像分类和指导生成模型。但是,对于输入文本的措辞,夹子的零拍情况不稳定,因此有必要仔细设计所用的提示。我们发现这种不稳定性源于选择性相似性分数,该得分仅基于语义上有意义的输入令牌的子集。为了减轻它,我们提出了一种新颖的基于可解释的方法,该方法增加了损失术语,以确保剪辑专注于输入的所有相关语义部分,此外还采用了以前的作品中使用的夹子相似性损失。当通过及时的工程应用于单发分类时,我们的方法可以提高识别率,而无需进行额外的培训或微调。此外,我们表明使用我们的方法对生成模型的剪辑指导显着改善了生成的图像。最后,我们通过在对象位置进行空间条件来证明对基于文本的图像生成的新颖使用,这是需要将图像解释性热图限制在预定的边界框中。
translated by 谷歌翻译
事实证明,关系决策树的合奏模型(行李和梯度提升)被证明是概率逻辑模型(PLM)领域中最有效的学习方法之一。尽管有效,但他们失去了PLM的最重要方面之一 - 可解释性。在本文中,我们考虑将大量博学的树木压缩成单个可解释的模型的问题。为此,我们提出了COTE(树的压缩),该Cote将单个小型决策列表作为压缩表示形式。Cote首先将树木转换为决策清单,然后借助原始训练集执行组合和压缩。实验评估证明了COTE在几个基准关系数据集中的有效性。
translated by 谷歌翻译
在大型离散图形模型中,随机规划可以简化为概率推断,但是推理的硬度需要使用近似方案。在本文中,我们认为可以沿着两个维度解开此类应用程序。第一个是理想化的精确优化目标中的信息流的方向,即向后推理。第二个是用于计算该目标解决方案的近似类型,例如,信念传播(BP)与平均场变异推理(MFVI)。这种新的分类使我们能够在先前的工作中统一大量孤立的努力,以解释其联系和差异以及潜在的改进。对大型随机计划问题进行广泛的实验评估表明,BP比基于MFVI的几种算法的优势。对MFVI的实际局限性的分析激发了一种新型算法CSVI,该算法提供了更严格的变化近似,并通过正向BP实现了可比的计划性能。
translated by 谷歌翻译
分布预测对于各种应用都很重要,包括预测流行病。通常,预测在为未来事件分配不确定性时,预测是错误的,或不可靠。我们提出了一种可重新校准方法,可以应用于给予回顾性预测和观察的黑盒预测,以及使该方法在重新校准流行病预测方面更有效的扩展。保证此方法可在培训和测量的样本中提高校准和日志评分性能。我们还证明了重新脉置预测的预期日志评分的增加等于坑分布的熵。我们将此重新校准方法应用于Flusight网络中的27个流感预报员,并显示重新校准可靠地提高预测精度和校准。这种方法是有效的,坚固且易于用作改善流行病预测的后处理工具。
translated by 谷歌翻译
我们提出了一种学习来自未标识的行为视频的代理的姿势和结构的方法。从观察开始,表现代理通常是行为视频中的主要运动来源,我们的方法使用具有几何瓶颈的编码器 - 解码器架构来重建视频帧之间的差异。只要仅关注运动区域,我们的方法直接在输入视频上工作,而无需手动注释,例如关键点或边界框。关于各种代理类型(鼠标,飞,人,水母和树木)的实验展示了我们的方法的一般性,并揭示了我们发现的关键点代表着语义有意义的身体部位,这在关键点回归上实现了最先进的性能在自我监督的方法中。此外,我们发现的关键点可实现可比的性能,以对下游任务的监督关键点,例如行为分类,表明我们的方法可以大大降低模型培训VIS-VIS监督方法的成本。
translated by 谷歌翻译
基于云的机器学习服务(CMLS)使组织能够利用大量数据预先培训的先进模型。然而,使用这些服务的主要缺点是难以保持传输的数据私密和安全。不对称加密需要在云中解密数据,而同性恋加密通常太慢并且难以实现。我们提出了一种通过去卷积(OWSD)的一种方式扰乱(OWSD),一种基于去卷积的加扰框架,其提供了在计算开销的一小部分处的同态加密的优点。当CMLS的输出向量足够大时,对多个图像数据集的广泛评估演示了OWSD实现接近完美分类性能的能力。此外,我们还提供了对我们方法的稳健性的实证分析。
translated by 谷歌翻译
我们训练神经网络以优化最小描述长度分数,即,在网络的复杂性之间平衡,并在任务中的准确性。我们展示了使用此目标函数主任务培训的网络,涉及记忆挑战,例如计数,包括超出无背景语言的案例。这些学习者掌握语法,例如,$ a ^ nb ^ n $,$ a ^ nb ^ nc ^ n $,$ a ^ nb ^ {2n} $和$ a ^ nb ^ mc ^ {n + m} $,他们进行加法。他们这样做的准确性100%,有时也有100%的信心。网络也很小,内部工作是透明的。因此,我们提供正式证据,即他们的完美准确性不仅在给定的测试集上持有,而是用于任何输入序列。
translated by 谷歌翻译